iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0
AI & Data

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案系列 第 3

生成式A.I.(AIGC)從0開始 - LLMs大語言模型介紹

  • 分享至 

  • xImage
  •  

今天來介紹LLM → Large Language Models 大型語言模型,
我們的主題AIGC也離不開大語言模型
相信大家一定都有使用過ChatGPT,沒錯ChatGPT就是一個GPT-3.5大語言聊天模型
擁有超過1750億參數,支援最多16K的輸入 這邊聽不懂沒關係我們會慢慢解釋

什麼是語言模型?

Language models語言模型就像一個聰明的語言理解機器,它被訓練成了解和使用人類的語言。想像一下,你給它一個句子的開頭,它可以幫你預測出接下來可能出現的詞語或完成整個句子。這是因為它通過閱讀大量的文章、書籍和網頁,學會了語法、詞彙和常見的語言模式。

比如說 : 今天真開心,外面的天氣很 _ 。

這裡一定是,不會出現
這是因為我們給他的訓練資料讓語言模型預測這些詞的機率比較高
如果你拿品質較差的訓練集那他給你的回覆可能也會不太好

以ChatGPT為例,大家一定聽過英文的回覆品質比較好,就是因為訓練資料大部分都是英文,小部分中文

什麼是大語言模型?

知道了語言模型後,什麼是「大」語言模型呢?

大語言模型是語言模型的強化版,它更加強大和聰明。那其實沒有個明確的定義,主要就是訓練的參數(語言知識),可能幾十億甚至到上千億

像GPT-3就有1750億的參數
而我們熟悉的ChatGPT則是使用GPT-3.5還有GPT-4模型
雖然沒公布但這兩個參數肯定更高

大語言模型能很好的處理文本生成像是文章、故事、詩歌、新聞報導、程式碼等
甚至是翻譯、文本分類、情感分析、問答系統

參數越多越好嗎?

或許是,但應該很快就出現上限了,人類資料就那麼多
而且也可能會出現過擬合(overfitting)的情況
還有訓練費用也是問題,這些千億級的模型訓練費用動輒都幾百萬美金(上萬張A100)
目前也越來越多在研究用高品質的少量訓練資料來訓練很好的模型

而模型的訓練過程包括兩個主要階段:預訓練和微調,下面會一一介紹

訓練階段1 → 預訓練(Pre-training)

在這個階段,模型首先在大量的未標記文本數據上進行訓練,通常使用無監督或自監督的學習方法。模型通過閱讀這些文本數據,學習語言的基本知識、詞彙、語法結構和語言關聯性。這一階段的目標是使模型獲得一種通用的語言理解能力,而不是針對特定任務進行訓練。

訓練階段2 → 微調(fine tuning)是什麼?

當我們有了一個模型後(又稱預訓練模型),我們想要讓他執行特定任務(聊天、特定領域問答),微調的目標是使模型適應特定任務

以ChatGPT為例,他就是一個微調過的聊天模型
相信有用過的都知道,我們可以用聊天的方式跟他溝通,他也會用聊天的方式回覆我們
那是怎麼做到的呢?
我們可以準備很多的聊天訓練集來訓練

這邊就可以延伸很多應用了,像是金融模型、醫療模型、法律模型
可以說各行各業都能有自己的微調模型來幫助你

最後如果你也對這主題有興趣歡迎來我們的discord跟大家一起討論~
https://discord.gg/sFDuct738y


上一篇
AIGC、Gen AI 生成式介紹
下一篇
生成式A.I.(AIGC)從0開始 - Tokens 介紹
系列文
2023 AI大型語言模型之旅 - 從0開始學習建構AI專案14
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言